講義資料

今日の資料はコチラから.

スマホで見る方はQRコードを読み込んでください

  • 【第1講】イントロダクション
  • 【第2講】前期の復習(一般線形モデル)
  • 【第3講】一般化線形モデル①
  • 【第4講】一般化線形モデル②,一般線形混合モデル
  • 【第5講】一般化線形混合モデル
  • 【第6講】因子分析①
  • 【第7講】因子分析②
  • 【第8講】機械学習①:分類
  • 【第9講】機械学習②:サポートベクターマシンによる分類
  • 【第10講】マッチング法・回帰不連続デザイン
  • 【第11講】操作変数法・差の差の分析
  • 【第12講】発表準備①
  • 【第13講】発表準備②
  • 【第14講】発表準備③・プレゼンテーション

前回の復習

前期の復習

  • 前期の復習として,基礎的な回帰分析・t検定・重回帰分析等に触れる.
    • Rでやったこと・できることを思い出してみよう.

radiantのインストール

  • 最初にradiantを起動します.
# 最初の一回はインストールが必要です.
# install.packages("radiant", dependencies = T)

library(radiant)
radiant()

データの読み込み

  • 【Load data of type:】:csvに設定
  • 【Load】:クリックして自身が分析したいデータセットを選択する.
    • 当面は前期と同じデータ(exdataset)を分析する.
  • これでデータの読み込みはできました.

Manage


View


Visualize


Pivot


Explorer


Transform


Combine


2群の平均値の比較

  • Basics→Means→Compare Meansを選択


回帰分析

  • Model→Estimate→Linear Regression(OLS)を選択

レポートの記録の仕方

  1. RStudio上のMarkdownで記録を残す方法

  • RStudioで最初に下記コードを入れてから貼り付ける.
library(radiant)


  1. Radiant上で記録を残す方法

一般化線形モデル

一般化線形モデルとは?

  • 分散として正規分布以外の分布を仮定したモデル
    • 今までやってきたt検定や回帰分析は「一般線形モデル」として,正規分布を仮定したモデルである.
  • 一般化線形モデルを使うべき例:
    • ロジスティック回帰:タイタニック号のどのような乗客が生き残る可能性が高かったか.
      • 応答変数:死ぬか生きるか
    • ポアゾン回帰:データの個数がテーマになる場合
      • 応答変数:0以上X未満のデータなど

ロジスティック回帰分析

データの選択

可視化

  • ヒストグラムなどでデータの傾向を確認する.
    • survivedがNoの人が多い
      • 応答変数が2種類しかない

  • いろんな変数について同じようにグラフにしてみよう.

  • 男女分けてみると,男性が圧倒的に多く亡くなっている
  • Lady Firstの精神をここに見ることができる.

分析

  • Model→Estimate→Logistic Regression(GLM)を選択

  • まずは男女差が生存にどの程度影響しているか分析しよう

  • オッズ比:ある事象の起こりやすさを示す値\[p(1-p)\]として表される.
  • 詳細はこちらも確認のこと

Rコードだとexp(係数の値)を入れることで%の値を算出することができる,

  • 可視化などを様々試してみよう

  • 分析結果
library(radiant)
## Loading required package: radiant.data
## Loading required package: magrittr
## Loading required package: ggplot2
## Loading required package: lubridate
## 
## Attaching package: 'lubridate'
## The following object is masked from 'package:base':
## 
##     date
## Loading required package: tidyr
## 
## Attaching package: 'tidyr'
## The following object is masked from 'package:magrittr':
## 
##     extract
## Loading required package: dplyr
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:lubridate':
## 
##     intersect, setdiff, union
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Registered S3 method overwritten by 'radiant.data':
##   method       from  
##   print.gtable gtable
## 
## Attaching package: 'radiant.data'
## The following objects are masked from 'package:lubridate':
## 
##     month, wday
## The following object is masked from 'package:ggplot2':
## 
##     diamonds
## Loading required package: radiant.design
## Loading required package: mvtnorm
## Loading required package: radiant.basics
## Loading required package: radiant.model
## Loading required package: radiant.multivariate
result <- logistic(
  titanic, 
  rvar = "survived", 
  evar = "sex", 
  lev = "Yes"
)
summary(result, sum_check = c("confint", "odds"))
## Logistic regression (GLM)
## Data                 : titanic
## Response variable    : survived
## Level                : Yes in survived
## Explanatory variables: sex 
## Null hyp.: there is no effect of sex on survived
## Alt. hyp.: there is an effect of sex on survived
## 
##                 OR coefficient std.error z.value p.value    
##  (Intercept)             1.106     0.118   9.389  < .001 ***
##  sex|male    0.086      -2.458     0.152 -16.141  < .001 ***
## 
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Pseudo R-squared: 0.22
## Log-likelihood: -550.204, AIC: 1104.408, BIC: 1114.308
## Chi-squared: 309.577 df(1), p.value < .001 
## Nr obs: 1,043
## Waiting for profiling to be done...
##             coefficient   2.5%  97.5%   +/-
## (Intercept)       1.106  0.879  1.341 0.236
## sex|male         -2.458 -2.761 -2.163 0.295
## 
##          odds ratio  2.5% 97.5%
## sex|male      0.086 0.063 0.115
  • 可視化
plot(result, plots = "scatter", nrobs = "-1", custom = FALSE)


資料

演習問題:

  • 以下の問題を回答してください.
    • titanicデータについて,どのようなデータが生存率に影響を与えるのか確認せよ.
    • exdatasetについて,独裁者ゲームについて分配をしたかどうかにデータを分けて分析せよ.
    • 細かい仮説等はいらないが,簡単に一言二言の説明をつけること.

      • exdataset$DIC_OTHexdataset$DIC_OTH01として分配の有無に分けるためのコードは以下の通り.

  • ’Recode:’の中には下記のコードを書き込む

0 = 0; 1:10 = 1 - 終わったら“Store”をクリック!

  • さらにデータを文字列に変換すること

  • 終わったら“Store”をクリック!

今日のTake Home Messages

  • データ解析論I(春学期)とデータ解析論II(秋学期)を履修しなければ,社会調査士E科目として認定されない.
  • RRStudioというプログラムを用いる.
  • Google アカウントを作成しておく必要がある.
    • 最初のデータ整理やグループワークに用いる.
  • 自身で保有するパソコンにインストールすることをおすすめするが,様々な制約が存在する.
    • ex.日本語(2バイト文字)でユーザ名やフォルダ名を作っていたらエラーが生じるなど.
  • その場合は自宅で実施するためにRStudio Cloudを用いることを推奨する.
    • しかし,動作は今研究中なので対応できないことがあるかもしれません....

Rでデータを扱う時に注意すべきこと

  • 必ず数字/文字は半角で入力する.
  • 日本語は使わずにローマ字を使用する.
  • コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
    • メモする内容は全角でもよい.
  • ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
    • 半角英数字だけにする.
  • 慌てずに落ち着いて操作すれば,決して難しくない.
    • 1つずつ落ち着いて作業することを心がける.
  • 「わからない」ことを恐れない
    • 周りの友人に聞いたり,教員に確認したりしよう.

リアクションペーパー:

参考文献など

参考図書(和書)

統計について

再現性の議論について

分析の一連の流れについて

参考図書(洋書)

計量経済について * Heiss, Florian, 2016, “Using R for Introductory Econometrics”, Amazon Digital Services - 洋書.Rを用いた計量経済学入門の教科書だが,手を動かしながら学んでいくことができる.

参考web資料

Rによる統計 * Rjpwiki - Rに関する基礎知識の共有などが図られている.

  • r-wakalang
    • Slackのグループ.全く知らない人たちが色々質問に答えてくれたりも.
  • からだにいいもの
    • Rに関する様々な情報が掲載されている.多少応用的なトピックが多い.
  • marketechlabo
    • ちょっと新しいパッケージ等が紹介されていて興味深い

RMarkdownの使い方

ヒント

  • こんなことがかかわるかも?
    • なんて,演習問題によってヒントが出たり何だりします.
    • ヒントがない時は気合でがんばりましょう.

データの概要

データの頭10個

library(DT)
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   SEX_OBJ = col_character(),
##   SEX_NIN = col_character(),
##   F_SEX = col_character(),
##   F_GEN_2 = col_character(),
##   F_GEN = col_character(),
##   F_FGR = col_character(),
##   F_INK = col_character(),
##   F_INS = col_character(),
##   F_TAN = col_character(),
##   ARE = col_character(),
##   MAR = col_character(),
##   CHI = col_character()
## )
## See spec(...) for full column specifications.
DT::datatable(exdataset)

変数名リスト

主観的指標

項目名 データタイトル 質問項目 回答
主観的幸福度 SUB_HAP 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* 0点「とても不幸せ」-10点「とても幸せ」
生活満足度 SUB_SAT あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? 0点「とても不満足」-10点「とても満足」
生活満足度 SUB_SLP あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? 0点「全く眠れていない」-10点「とても眠れている」

独裁者ゲーム

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
主観的幸福度 DIC_PAR Bさんが両親の場合 0ポイント-10ポイント
DG友人条件 DIC_FRI Bさんが友人の場合 0ポイント-10ポイント
DG他者条件 DIC_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

最終提案ゲーム_提案者

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
最終提案提案者両親条件 ULT_PRO_PAR Bさんが両親の場合 0ポイント-10ポイント
最終提案提案者友人条件 ULT_PRO_FRI Bさんが友人の場合 0ポイント-10ポイント
最終提案提案者他者条件 ULT_PRO_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

最終提案ゲーム_応答者

図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
最終提案応答者両親条件 ULT_REC_PAR Bさんが両親の場合 0ポイント-10ポイント
最終提案応答者友人条件 ULT_REC_FRI Bさんが友人の場合 0ポイント-10ポイント
最終提案応答者他者条件 ULT_REC_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

信頼ゲーム

図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.

項目名 データタイトル 質問項目 回答
信頼両親条件 TRU_PAR Bさんが両親の場合 0ポイント-10ポイント
信頼友人条件 TRU_FRI Bさんが友人の場合 0ポイント-10ポイント
信頼他者条件 TRU_OTH Bさんが全く知らない他人の場合 0ポイント-10ポイント

自然関連

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
自然運命 SPN_UNM 何かの大きな力に自分の運命は動かされているように感じることがある. 1全くそう思わない-4非常にそう思う
自然感謝 SPN_THK 自然などの人間を超えた力に感謝の気持ちを持つことがある. 1全くそう思わない-4非常にそう思う
自然恐怖 SPN_FEA 自然などの人間を超えた力に恐れの気持ちを持つことがある. 1全くそう思わない-4非常にそう思う
自然生存 SPN_LIV 自然などの人間を超えた力によって,生かされていると思うことがある. 1全くそう思わない-4非常にそう思う
自然大切 SPN_IMP 自然は大切な存在である. 1全くそう思わない-4非常にそう思う

監視

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
第2者被監視感 KAN_SEC 日常生活の中で,直接誰か(人間)に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
第3者被監視感 KAN_THI 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
超自然的被監視感 KAN_SUP 日常生活の中で,超自然的な存在に見られていると思うことがある. 1全くそう思わない-4非常にそう思う
第2者被監視感 KAN_PRD 無機物の中に,人間の表情のようなものを見出すことがある. 1全くそう思わない-4非常にそう思う
自然大切 KAN_KYK 人に対して共感をすることがある. 1全くそう思わない-4非常にそう思う

死後

以下の質問について4点満点でお答えください.

項目名 データタイトル 質問項目 回答
死後世界 DED_SHI 「死後の世界」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
天国 DED_TEN 「天国」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
地獄 DED_JIG 「地獄」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
奇跡 DED_KIS 「奇跡」が存在すると思いますか? 1全くそう思わない-4非常にそう思う
天罰 DED_PUN 「天罰」が存在すると思いますか? 1全くそう思わない-4非常にそう思う

性行動

以下の質問についてお答えください.

項目名 データタイトル 質問項目 回答
性衝動 SEX_IMP,SEX_IMP_num(数値,欠損値有り) あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない.
自慰回数 SEX_MAS,SEX_MAS_nen(年間回数): あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」
性交渉回数 SEX_SEX,SEX_SEX_nen(年間回数) あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」
性衝動対象 SEX_OBJ あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない
天罰 SEX_NIN,SEX_NIN_cen(中央値) あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」
性情報開示 SEX_NNA 性情報に対して開示しなかった個数 上記5つについて答えたくないを選んだ個数

フェイスシート

あなたのことについて教えて下さい.

項目名 データタイトル 質問項目 回答
性別 F_SEX あなたの性別を教えて下さい. 1.男性, 2.女性,3.その他
世代 F_GEN あなたの年齢を教えて下さい. 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降
最終学歴 F_FGR あなたの最終学歴を教えて下さい. 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了
個人収入 F_INK,F_INK_cen(中央値,百万円) あなた個人の年収を教えて下さい. 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない
世帯収入 F_INS,F_INS_cen(中央値,百万円) あなたの世帯での収入の合計を教えて下さい. 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない
回答端末 F_TAN あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他
都道府県 PRE あなたのお住まいの県を教えて下さい. 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県
地域 ARE 都道府県から地域に変換 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県
未既婚 MAR あなたはご結婚されていますか? NotMarried:未婚,Married:既婚
子の有無 CHI あなたはお子さんがいらっしゃいますか? NoChild:いない,Child:いる